LongTraceRL: Razón de largo contexto con recompensas de rúbrica LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda. 2026-06-01 · 1 min